
<!DOCTYPE HTML>
<html lang="" >
    <head>
        <meta charset="UTF-8">
        <meta content="text/html; charset=utf-8" http-equiv="Content-Type">
        <title>强化学习 · 梦里茶</title>
        <meta http-equiv="X-UA-Compatible" content="IE=edge" />
        <meta name="description" content="">
        <meta name="generator" content="GitBook 3.2.2">
        <meta name="author" content="陈伟航">
        
        
    
    
    <link rel="stylesheet" href="../../gitbook/style.css">

    
            
                
                <link rel="stylesheet" href="../../gitbook/gitbook-plugin-disqus/plugin.css">
                
            
                
                <link rel="stylesheet" href="../../gitbook/gitbook-plugin-toggle-chapters/toggle.css">
                
            
                
                <link rel="stylesheet" href="../../gitbook/gitbook-plugin-mermaid-gb3/mermaid/mermaid.css">
                
            
                
                <link rel="stylesheet" href="../../gitbook/gitbook-plugin-highlight/website.css">
                
            
                
                <link rel="stylesheet" href="../../gitbook/gitbook-plugin-search/search.css">
                
            
                
                <link rel="stylesheet" href="../../gitbook/gitbook-plugin-fontsettings/website.css">
                
            
        

    

    
        
        <link rel="stylesheet" href="../../styles/website.css">
        
    
        
    
        
    
        
    
        
    
        
    


    

        
    
    
    <meta name="HandheldFriendly" content="true"/>
    <meta name="viewport" content="width=device-width, initial-scale=1, user-scalable=no">
    <meta name="apple-mobile-web-app-capable" content="yes">
    <meta name="apple-mobile-web-app-status-bar-style" content="black">
    <link rel="apple-touch-icon-precomposed" sizes="152x152" href="../../gitbook/images/apple-touch-icon-precomposed-152.png">
    <link rel="shortcut icon" href="../../gitbook/images/favicon.ico" type="image/x-icon">

    
    <link rel="next" href="ch17.html" />
    
    
    <link rel="prev" href="ch15.html" />
    

    </head>
    <body>
        
<div class="book">
    <div class="book-summary">
        
            
<div id="book-search-input" role="search">
    <input type="text" placeholder="Type to search" />
</div>

            
                <nav role="navigation">
                


<ul class="summary">
    
    

    

    
        
        
    
        <li class="chapter " data-level="1.1" data-path="../../">
            
                <a href="../../">
            
                    
                    Introduction
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.2" data-path="../../android/">
            
                <a href="../../android/">
            
                    
                    Android
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.2.1" data-path="../../android/activity/">
            
                <a href="../../android/activity/">
            
                    
                    activity
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.2.1.1" data-path="../../android/activity/Activity四种启动模式.html">
            
                <a href="../../android/activity/Activity四种启动模式.html">
            
                    
                    Activity四种启动模式
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.2.1.2" data-path="../../android/activity/INTENT_FLAG.html">
            
                <a href="../../android/activity/INTENT_FLAG.html">
            
                    
                    Intent Flag
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.2.1.3" data-path="../../android/activity/多TASK的应用.html">
            
                <a href="../../android/activity/多TASK的应用.html">
            
                    
                    多task的应用
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.2.1.4" data-path="../../android/activity/Task和回退栈.html">
            
                <a href="../../android/activity/Task和回退栈.html">
            
                    
                    Task和回退栈
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.2.2" data-path="../../android/sqlite/">
            
                <a href="../../android/sqlite/">
            
                    
                    sqlite
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.2.2.1" data-path="../../android/sqlite/从源码看ANDROID中SQLITE是怎么通过CURSORWINDOW读DB的.html">
            
                <a href="../../android/sqlite/从源码看ANDROID中SQLITE是怎么通过CURSORWINDOW读DB的.html">
            
                    
                    【源码】CursorWindow读DB
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.2.2.2" data-path="../../android/sqlite/SQLITE在ANDROID上的一个BUG.html">
            
                <a href="../../android/sqlite/SQLITE在ANDROID上的一个BUG.html">
            
                    
                    Sqlite在Android上的一个Bug
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.2.3" data-path="../../android/chromium/">
            
                <a href="../../android/chromium/">
            
                    
                    Chromium
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.2.4" data-path="../../android/listview_db.html">
            
                <a href="../../android/listview_db.html">
            
                    
                    ListView读取DB数据最佳实践
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.2.5" data-path="../../android/Android_project结构.html">
            
                <a href="../../android/Android_project结构.html">
            
                    
                    Android Project结构
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.2.6" data-path="../../android/一个由PROGUARD与FASTJSON引起的血案.html">
            
                <a href="../../android/一个由PROGUARD与FASTJSON引起的血案.html">
            
                    
                    一个由Proguard与FastJson引起的血案
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.2.7" data-path="../../android/note.html">
            
                <a href="../../android/note.html">
            
                    
                    琐碎的一些tips
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.3" data-path="../">
            
                <a href="../">
            
                    
                    Machine Learning
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.3.1" data-path="../trick/">
            
                <a href="../trick/">
            
                    
                    技巧
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.3.1.1" data-path="../trick/imgnet_1h.html">
            
                <a href="../trick/imgnet_1h.html">
            
                    
                    FaceBook: 1 hour training ImageNet
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.1.2" data-path="../trick/l2_normalize.html">
            
                <a href="../trick/l2_normalize.html">
            
                    
                    L2 Norm与L2 normalize
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.3.2" data-path="../pratice/ncs.html">
            
                <a href="../pratice/ncs.html">
            
                    
                    实践
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.3" data-path="../kit/">
            
                <a href="../kit/">
            
                    
                    工具
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.3.3.1" >
            
                <a target="_blank" href="https://github.com/ahangchen/GDLNotes">
            
                    
                    Tensorflow学习笔记
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.3.2" data-path="../kit/caffe/mscnn.html">
            
                <a href="../kit/caffe/mscnn.html">
            
                    
                    mscnn
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.3.3" data-path="../matlab/">
            
                <a href="../matlab/">
            
                    
                    Matlab
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.3.3.3.1" data-path="../matlab/ripc_auto.html">
            
                <a href="../matlab/ripc_auto.html">
            
                    
                    Matlab Remote IPC自动化数据处理
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.3.4" data-path="../papers/">
            
                <a href="../papers/">
            
                    
                    讲座论文系列
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.3.4.1" data-path="../reid/">
            
                <a href="../reid/">
            
                    
                    Re-identification
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.3.4.1.1" data-path="../papers/TFusion.html">
            
                <a href="../papers/TFusion.html">
            
                    
                    CVPR2018:TFusion完全解读
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.4.1.2" data-path="../reid/reid.html">
            
                <a href="../reid/reid.html">
            
                    
                    Person Re-identification
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.4.1.3" data-path="../reid/cvpr-reid.html">
            
                <a href="../reid/cvpr-reid.html">
            
                    
                    CVPR2016 Re-id
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.4.1.4" data-path="../reid/reid-topo.html">
            
                <a href="../reid/reid-topo.html">
            
                    
                    Camera topology and Person Re-id
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.4.1.5" data-path="../reid/deep_transfer_learning_person_reid.html">
            
                <a href="../reid/deep_transfer_learning_person_reid.html">
            
                    
                    Deep transfer learning Person Re-id
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.4.1.6" data-path="../reid/evaluate.html">
            
                <a href="../reid/evaluate.html">
            
                    
                    Evaluate
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.3.4.2" data-path="../papers/detection/">
            
                <a href="../papers/detection/">
            
                    
                    Object Detection
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.3.4.2.1" data-path="../papers/detection/rcnn.html">
            
                <a href="../papers/detection/rcnn.html">
            
                    
                    读论文系列·干货满满的RCNN
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.4.2.2" data-path="../papers/detection/sppnet.html">
            
                <a href="../papers/detection/sppnet.html">
            
                    
                    读论文系列·SPP-net
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.4.2.3" data-path="../papers/detection/fast_rcnn.html">
            
                <a href="../papers/detection/fast_rcnn.html">
            
                    
                    读论文系列·Fast RCNN
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.4.2.4" data-path="../papers/detection/faster_rcnn.html">
            
                <a href="../papers/detection/faster_rcnn.html">
            
                    
                    读论文系列·Faster RCNN
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.4.2.5" data-path="../papers/detection/yolo.html">
            
                <a href="../papers/detection/yolo.html">
            
                    
                    读论文系列·YOLO
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.4.2.6" data-path="../papers/detection/ssd.html">
            
                <a href="../papers/detection/ssd.html">
            
                    
                    读论文系列·SSD
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.4.2.7" data-path="../papers/detection/yolo23.html">
            
                <a href="../papers/detection/yolo23.html">
            
                    
                    读论文系列·YOLOv2 & YOLOv3
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.4.2.8" data-path="../papers/detection/other.html">
            
                <a href="../papers/detection/other.html">
            
                    
                    读论文系列·detection其他文章推荐
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.3.4.3" >
            
                <span>
            
                    
                    Hashing
            
                </span>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.3.4.3.1" data-path="../papers/hashing/ssah.html">
            
                <a href="../papers/hashing/ssah.html">
            
                    
                    CVPR2018: SSAH
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.3.4.4" >
            
                <span>
            
                    
                    大杂烩
            
                </span>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.3.4.4.1" data-path="../papers/cncc2017.html">
            
                <a href="../papers/cncc2017.html">
            
                    
                    CNCC2017 琐记
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.4.4.2" data-path="../papers/eccv2016_hydra_ccnn.html">
            
                <a href="../papers/eccv2016_hydra_ccnn.html">
            
                    
                    ECCV 2016 Hydra CCNN
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.4.4.3" data-path="../papers/cncc_cv.html">
            
                <a href="../papers/cncc_cv.html">
            
                    
                    CNCC2017深度学习与跨媒体智能
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.4.4.4" data-path="../papers/mla_2016.html">
            
                <a href="../papers/mla_2016.html">
            
                    
                    MLA2016笔记
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.3.5" data-path="../zzh_ml_notes.html">
            
                <a href="../zzh_ml_notes.html">
            
                    
                    《机器学习》（周志华）读书笔记
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.3.5.1" data-path="./">
            
                <a href="./">
            
                    
                    西瓜书概念整理
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.3.5.1.1" data-path="ch01.html">
            
                <a href="ch01.html">
            
                    
                    绪论
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.5.1.2" data-path="ch02.html">
            
                <a href="ch02.html">
            
                    
                    模型评估与选择
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.5.1.3" data-path="ch03.html">
            
                <a href="ch03.html">
            
                    
                    线性模型
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.5.1.4" data-path="ch04.html">
            
                <a href="ch04.html">
            
                    
                    决策树
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.5.1.5" data-path="ch05.html">
            
                <a href="ch05.html">
            
                    
                    神经网络
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.5.1.6" data-path="ch06.html">
            
                <a href="ch06.html">
            
                    
                    支持向量机
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.5.1.7" data-path="ch07.html">
            
                <a href="ch07.html">
            
                    
                    贝叶斯分类器
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.5.1.8" data-path="ch08.html">
            
                <a href="ch08.html">
            
                    
                    集成学习
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.5.1.9" data-path="ch09.html">
            
                <a href="ch09.html">
            
                    
                    聚类
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.5.1.10" data-path="ch10.html">
            
                <a href="ch10.html">
            
                    
                    降维与度量学习
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.5.1.11" data-path="ch11.html">
            
                <a href="ch11.html">
            
                    
                    特征选择与稀疏学习
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.5.1.12" data-path="ch12.html">
            
                <a href="ch12.html">
            
                    
                    计算学习理论
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.5.1.13" data-path="ch13.html">
            
                <a href="ch13.html">
            
                    
                    半监督学习
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.5.1.14" data-path="ch14.html">
            
                <a href="ch14.html">
            
                    
                    概率图模型
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.5.1.15" data-path="ch15.html">
            
                <a href="ch15.html">
            
                    
                    规则学习
            
                </a>
            

            
        </li>
    
        <li class="chapter active" data-level="1.3.5.1.16" data-path="ch16.html">
            
                <a href="ch16.html">
            
                    
                    强化学习
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.3.5.1.17" data-path="ch17.html">
            
                <a href="ch17.html">
            
                    
                    附录
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    

            </ul>
            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.4" data-path="../../java/">
            
                <a href="../../java/">
            
                    
                    Java
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.4.1" data-path="../../java/java-web/note.html">
            
                <a href="../../java/java-web/note.html">
            
                    
                    java web
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.4.1.1" data-path="../../java/java-web/Servlet组织.html">
            
                <a href="../../java/java-web/Servlet组织.html">
            
                    
                    Servlet部署
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.4.1.2" data-path="../../java/java-web/note.html">
            
                <a href="../../java/java-web/note.html">
            
                    
                    琐碎的tips
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.4.2" data-path="../../java/jni/note.html">
            
                <a href="../../java/jni/note.html">
            
                    
                    JNI
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.4.3" data-path="../../java/note.html">
            
                <a href="../../java/note.html">
            
                    
                    Note
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.4.4" data-path="../../java/ej/l1-new-delete.html">
            
                <a href="../../java/ej/l1-new-delete.html">
            
                    
                    Effective Java笔记
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.5" data-path="../../backend/">
            
                <a href="../../backend/">
            
                    
                    后端开发
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.5.1" data-path="../../backend/design.html">
            
                <a href="../../backend/design.html">
            
                    
                    架构设计
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.5.2" data-path="../../backend/db.html">
            
                <a href="../../backend/db.html">
            
                    
                    数据库
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.5.3" data-path="../../java/java-web/note.html">
            
                <a href="../../java/java-web/note.html">
            
                    
                    java web
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.5.3.1" data-path="../../java/java-web/Servlet组织.html">
            
                <a href="../../java/java-web/Servlet组织.html">
            
                    
                    Servlet部署
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.5.3.2" data-path="../../java/java-web/note.html">
            
                <a href="../../java/java-web/note.html">
            
                    
                    琐碎的tips
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.5.4" data-path="../../backend/spring_boot.html">
            
                <a href="../../backend/spring_boot.html">
            
                    
                    Spring boot
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.5.5" data-path="../../python/django/note.html">
            
                <a href="../../python/django/note.html">
            
                    
                    django
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.5.6" data-path="../../backend/concurrent.html">
            
                <a href="../../backend/concurrent.html">
            
                    
                    分布式
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.6" data-path="../../linux/note.html">
            
                <a href="../../linux/note.html">
            
                    
                    Linux && Hardware
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.6.1" data-path="../../linux/ubuntu_init.html">
            
                <a href="../../linux/ubuntu_init.html">
            
                    
                    Ubuntu安装与初始配置
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.6.2" data-path="../../linux/raspbian/">
            
                <a href="../../linux/raspbian/">
            
                    
                    树莓派相关
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.6.2.1" data-path="../../linux/raspbian/rtlwifi.html">
            
                <a href="../../linux/raspbian/rtlwifi.html">
            
                    
                    树莓派3B+无线网卡监听模式
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.6.2.2" data-path="../../linux/raspbian/tlwr703n_openwrt.html">
            
                <a href="../../linux/raspbian/tlwr703n_openwrt.html">
            
                    
                    TP-LINK TL-WR703N v1.7 openwrt flashing
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.7" data-path="../../python/">
            
                <a href="../../python/">
            
                    
                    Python
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.7.1" data-path="../../python/django/note.html">
            
                <a href="../../python/django/note.html">
            
                    
                    django
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.7.2" data-path="../../python/raw.html">
            
                <a href="../../python/raw.html">
            
                    
                    原生模块
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.7.3" data-path="../../python/design.html">
            
                <a href="../../python/design.html">
            
                    
                    设计模式
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.7.4" data-path="../../python/viz.html">
            
                <a href="../../python/viz.html">
            
                    
                    可视化
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.7.5" data-path="../../python/libs.html">
            
                <a href="../../python/libs.html">
            
                    
                    常用库踩坑指南
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.8" data-path="../../web-front/">
            
                <a href="../../web-front/">
            
                    
                    web前端
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.8.1" data-path="../../web-front/head_content.html">
            
                <a href="../../web-front/head_content.html">
            
                    
                    header div固定，content div填充父容器
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.8.2" data-path="../../web-front/json_res.html">
            
                <a href="../../web-front/json_res.html">
            
                    
                    json接口资源
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.9" data-path="../../UI/">
            
                <a href="../../UI/">
            
                    
                    UI
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.10" data-path="../../kit/">
            
                <a href="../../kit/">
            
                    
                    kit
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.10.1" data-path="../../kit/vim/note.html">
            
                <a href="../../kit/vim/note.html">
            
                    
                    vim
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.10.2" data-path="../../kit/git/note.html">
            
                <a href="../../kit/git/note.html">
            
                    
                    git/github
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.10.2.1" data-path="../../kit/git/green_blush.html">
            
                <a href="../../kit/git/green_blush.html">
            
                    
                    刷爆github小绿点
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.10.3" data-path="../../kit/markdown/">
            
                <a href="../../kit/markdown/">
            
                    
                    Markdown/gitbook
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.10.3.1" data-path="../../kit/markdown/pieces.html">
            
                <a href="../../kit/markdown/pieces.html">
            
                    
                    琐碎知识点
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.10.3.2" data-path="../../kit/markdown/gitbook_disqus.html">
            
                <a href="../../kit/markdown/gitbook_disqus.html">
            
                    
                    gitbook添加disqus作为评论
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.10.3.3" data-path="../../kit/markdown/chrome_mark2_md.html">
            
                <a href="../../kit/markdown/chrome_mark2_md.html">
            
                    
                    导出chrome书签为Markdown
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.10.3.4" data-path="../../kit/markdown/wx_md.html">
            
                <a href="../../kit/markdown/wx_md.html">
            
                    
                    Markdown here && 微信公众号
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.10.4" data-path="../../kit/latex/">
            
                <a href="../../kit/latex/">
            
                    
                    LaTex
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.10.4.1" data-path="../../kit/latex/note.html">
            
                <a href="../../kit/latex/note.html">
            
                    
                    LaTex琐记
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.10.5" data-path="../../kit/ss/">
            
                <a href="../../kit/ss/">
            
                    
                    科学上网
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.11" data-path="../../thinking-in-program/">
            
                <a href="../../thinking-in-program/">
            
                    
                    thinking-in-program
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.11.1" data-path="../../thinking-in-program/log.html">
            
                <a href="../../thinking-in-program/log.html">
            
                    
                    怎样打日志
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.12" data-path="../../star.html">
            
                <a href="../../star.html">
            
                    
                    我的收藏
            
                </a>
            

            
        </li>
    
        <li class="chapter " data-level="1.13" data-path="../../pieces.html">
            
                <a href="../../pieces.html">
            
                    
                    琐记
            
                </a>
            

            
            <ul class="articles">
                
    
        <li class="chapter " data-level="1.13.1" data-path="../../paper.html">
            
                <a href="../../paper.html">
            
                    
                    论文心得
            
                </a>
            

            
        </li>
    

            </ul>
            
        </li>
    
        <li class="chapter " data-level="1.14" data-path="../../support.html">
            
                <a href="../../support.html">
            
                    
                    打赏支持
            
                </a>
            

            
        </li>
    

    

    <li class="divider"></li>

    <li>
        <a href="https://www.gitbook.com" target="blank" class="gitbook-link">
            Published with GitBook
        </a>
    </li>
</ul>


                </nav>
            
        
    </div>

    <div class="book-body">
        
            <div class="body-inner">
                
                    

<div class="book-header" role="navigation">
    

    <!-- Title -->
    <h1>
        <i class="fa fa-circle-o-notch fa-spin"></i>
        <a href="../.." >强化学习</a>
    </h1>
</div>




                    <div class="page-wrapper" tabindex="-1" role="main">
                        <div class="page-inner">
                            
<div id="book-search-results">
    <div class="search-noresults">
    
                                <section class="normal markdown-section">
                                
                                <h1 id="&#x897F;&#x74DC;&#x4E66;&#x6982;&#x5FF5;">&#x897F;&#x74DC;&#x4E66;&#x6982;&#x5FF5;</h1>
<h2 id="&#x7B2C;16&#x7AE0;-&#x5F3A;&#x5316;&#x5B66;&#x4E60;reinforcement-learning">&#x7B2C;16&#x7AE0; &#x5F3A;&#x5316;&#x5B66;&#x4E60;(reinforcement learning)</h2>
<ul>
<li><p>Page371: MDP</p>
<p>&#x5728;&#x6982;&#x7387;&#x8BBA;&#x548C;&#x7EDF;&#x8BA1;&#x5B66;&#x4E2D;&#xFF0C;&#x9A6C;&#x53EF;&#x592B;&#x51B3;&#x7B56;&#x8FC7;&#x7A0B;&#xFF08;&#x82F1;&#x8BED;&#xFF1A;Markov Decision Processes&#xFF0C;&#x7F29;&#x5199;&#x4E3A; MDPs&#xFF09;&#x63D0;&#x4F9B;&#x4E86;&#x4E00;&#x4E2A;&#x6570;&#x5B66;&#x67B6;&#x6784;&#x6A21;&#x578B;&#xFF0C;&#x7528;&#x4E8E;&#x9762;&#x5BF9;&#x90E8;&#x4EFD;&#x968F;&#x673A;&#xFF0C;&#x90E8;&#x4EFD;&#x53EF;&#x7531;&#x51B3;&#x7B56;&#x8005;&#x63A7;&#x5236;&#x7684;&#x72B6;&#x6001;&#x4E0B;&#xFF0C;&#x5982;&#x4F55;&#x8FDB;&#x884C;&#x51B3;&#x7B56;&#xFF0C;&#x4EE5;&#x4FC4;&#x7F57;&#x65AF;&#x6570;&#x5B66;&#x5BB6;&#x5B89;&#x5FB7;&#x96F7;&#xB7;&#x9A6C;&#x5C14;&#x53EF;&#x592B;&#x7684;&#x540D;&#x5B57;&#x547D;&#x540D;&#x3002;&#x5728;&#x7ECF;&#x7531;&#x52A8;&#x6001;&#x89C4;&#x5212;&#x4E0E;&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x4EE5;&#x89E3;&#x51B3;&#x6700;&#x4F73;&#x5316;&#x95EE;&#x9898;&#x7684;&#x7814;&#x7A76;&#x9886;&#x57DF;&#x4E2D;&#xFF0C;&#x9A6C;&#x53EF;&#x592B;&#x51B3;&#x7B56;&#x8FC7;&#x7A0B;&#x662F;&#x4E00;&#x4E2A;&#x6709;&#x7528;&#x7684;&#x5DE5;&#x5177;&#x3002;</p>
</li>
<li><p>Page371: &#x5956;&#x8D4F;(reward)</p>
<p>&#x5956;&#x52B1;&#x51FD;&#x6570;&#x5B9A;&#x4E49;&#x4E86;&#x5F3A;&#x5316;&#x5B66;&#x4E60; Agent &#x7684;&#x76EE;&#x6807;&#xFF0C;&#x5B83;&#x5C06;&#x73AF;&#x5883;&#x7684;&#x72B6;&#x6001;&#x6620;&#x5C04;&#x4E3A;&#x4E00;&#x4E2A;&#x6570;&#x5B57;&#xFF08;&#x5956;&#x52B1;&#xFF09;&#xFF0C;&#x8868;&#x73B0;&#x4E86;&#x8BE5;&#x72B6;&#x6001;&#x7684;&#x5185;&#x5728;&#x613F;&#x671B;&#x3002;Agent &#x7684;&#x76EE;&#x6807;&#x662F;&#x6700;&#x5927;&#x9650;&#x5EA6;&#x5730;&#x63D0;&#x9AD8;&#x957F;&#x671F;&#x6536;&#x76CA;&#x3002;</p>
</li>
<li><p>Page371: &#x9A6C;&#x5C14;&#x79D1;&#x592B;&#x51B3;&#x7B56;&#x8FC7;&#x7A0B;(Markov Decision Process)</p>
<p>Markov Decision Process&#xFF0C;&#x901A;&#x5E38;&#x7528;&#x6765;&#x63CF;&#x8FF0;&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x4EFB;&#x52A1;&#xFF1A;&#x673A;&#x5668;&#x5904;&#x4E8E;&#x73AF;&#x5883; <script type="math/tex; ">E</script> &#x4E2D;&#xFF0C;&#x72B6;&#x6001;&#x7A7A;&#x95F4;&#x4E3A; <script type="math/tex; ">X</script>&#xFF0C;&#x5176;&#x4E2D;&#x6BCF;&#x4E2A;&#x72B6;&#x6001; <script type="math/tex; ">x \in X</script> &#x662F;&#x673A;&#x5668;&#x611F;&#x77E5;&#x5230;&#x7684;&#x73AF;&#x5883;&#x7684;&#x63CF;&#x8FF0;&#xFF1B;&#x673A;&#x5668;&#x80FD;&#x91C7;&#x53D6;&#x7684;&#x52A8;&#x4F5C;&#x6784;&#x6210;&#x4E86;&#x52A8;&#x4F5C;&#x7A7A;&#x95F4; <script type="math/tex; ">A</script>&#xFF1B;&#x82E5;&#x67D0;&#x4E2A;&#x52A8;&#x4F5C; <script type="math/tex; ">a \in A</script> &#x4F5C;&#x7528;&#x5728;&#x5F53;&#x524D;&#x72B6;&#x6001; <script type="math/tex; ">x</script> &#x4E0A;&#xFF0C;&#x5219;&#x6F5C;&#x5728;&#x7684;&#x8F6C;&#x79FB;&#x51FD;&#x6570; <script type="math/tex; ">P</script> &#x5C06;&#x4F7F;&#x5F97;&#x73AF;&#x5883;&#x4ECE;&#x5F53;&#x524D;&#x72B6;&#x6001;&#x6309;&#x67D0;&#x79CD;&#x6982;&#x7387;&#x8F6C;&#x79FB;&#x5230;&#x53E6;&#x4E00;&#x4E2A;&#x72B6;&#x6001;&#xFF1B;&#x5728;&#x8F6C;&#x79FB;&#x5230;&#x53E6;&#x4E00;&#x4E2A;&#x72B6;&#x6001;&#x7684;&#x540C;&#x65F6;&#xFF0C;&#x73AF;&#x5883;&#x4F1A;&#x6839;&#x636E;&#x6F5C;&#x5728;&#x7684;&#x300E;&#x5956;&#x8D4F;&#x300F;&#x51FD;&#x6570; <script type="math/tex; ">R</script> &#x53CD;&#x9988;&#x7ED9;&#x673A;&#x5668;&#x4E00;&#x4E2A;&#x5956;&#x8D4F;&#x3002;</p>
</li>
<li><p>Page371: &#x5F3A;&#x5316;&#x5B66;&#x4E60;(reinforcement learning)</p>
<p>&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x662F;&#x673A;&#x5668;&#x5B66;&#x4E60;&#x4E2D;&#x7684;&#x4E00;&#x4E2A;&#x9886;&#x57DF;&#xFF0C;&#x5F3A;&#x8C03;&#x5982;&#x4F55;&#x57FA;&#x4E8E;&#x73AF;&#x5883;&#x800C;&#x884C;&#x52A8;&#xFF0C;&#x4EE5;&#x53D6;&#x5F97;&#x6700;&#x5927;&#x5316;&#x7684;&#x9884;&#x671F;&#x5229;&#x76CA;&#x3002;&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x4EFB;&#x52A1;&#x5BF9;&#x5E94;&#x4E86;&#x56DB;&#x5143;&#x7EC4; <script type="math/tex; ">E = \langle \mathit{X,A,P,R} \rangle</script>&#xFF0C;&#x5176;&#x4E2D; <script type="math/tex; ">P: X \times A \times X \to \mathbb{R}</script> &#x6307;&#x5B9A;&#x4E86;&#x72B6;&#x6001;&#x8F6C;&#x79FB;&#x6982;&#x7387;&#xFF0C;<script type="math/tex; ">R: X \times A \times X \to \mathbb{R}</script> &#x6307;&#x5B9A;&#x4E86;&#x5956;&#x8D4F;&#xFF1B;&#x5728;&#x6709;&#x7684;&#x5E94;&#x7528;&#x4E2D;&#xFF0C;&#x5956;&#x8D4F;&#x51FD;&#x6570;&#x53EF;&#x80FD;&#x4EC5;&#x4E0E;&#x72B6;&#x6001;&#x8F6C;&#x79FB;&#x6709;&#x5173;&#xFF0C;&#x5373; <script type="math/tex; ">R: X \times X \to \mathbb{R}</script>&#x3002;</p>
</li>
<li><p>Page371: &#x518D;&#x52B1;&#x5B66;&#x4E60;</p>
<p>&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#xFF0C;&#x4EA6;&#x79F0;&#x518D;&#x52B1;&#x5B66;&#x4E60;&#x3002;</p>
</li>
<li><p>Page372: &#x7B56;&#x7565;(policy)</p>
<p>&#x5728;&#x73AF;&#x5883;&#x4E2D;&#x72B6;&#x6001;&#x7684;&#x8F6C;&#x79FB;&#x3001;&#x5956;&#x8D4F;&#x7684;&#x8FD4;&#x56DE;&#x662F;&#x4E0D;&#x53D7;&#x673A;&#x5668;&#x63A7;&#x5236;&#x7684;&#xFF0C;&#x673A;&#x5668;&#x53EA;&#x80FD;&#x901A;&#x8FC7;&#x9009;&#x62E9;&#x8981;&#x6267;&#x884C;&#x7684;&#x52A8;&#x4F5C;&#x6765;&#x5F71;&#x54CD;&#x73AF;&#x5883;&#xFF0C;&#x4E5F;&#x53EA;&#x80FD;&#x901A;&#x8FC7;&#x89C2;&#x5BDF;&#x8F6C;&#x79FB;&#x540E;&#x7684;&#x72B6;&#x6001;&#x548C;&#x8FD4;&#x56DE;&#x7684;&#x5956;&#x8D4F;&#x6765;&#x611F;&#x77E5;&#x73AF;&#x5883;&#x3002;<br>&#x673A;&#x5668;&#x8981;&#x505A;&#x7684;&#x662F;&#x901A;&#x8FC7;&#x5728;&#x73AF;&#x5883;&#x4E2D;&#x4E0D;&#x65AD;&#x5730;&#x5C1D;&#x8BD5;&#x800C;&#x5B66;&#x5F97;&#x4E00;&#x4E2A;&#x300E;&#x7B56;&#x7565;&#x300F;&#xFF08;policy&#xFF09;<script type="math/tex; ">\pi</script>&#xFF0C;&#x6839;&#x636E;&#x8FD9;&#x4E2A;&#x7B56;&#x7565;&#xFF0C;&#x5728;&#x72B6;&#x6001; <script type="math/tex; ">x</script> &#x4E0B;&#x5C31;&#x80FD;&#x5F97;&#x77E5;&#x8981;&#x6267;&#x884C;&#x7684;&#x52A8;&#x4F5C; <script type="math/tex; ">a = \pi(x)</script>&#x3002;<br>&#x7B80;&#x5355;&#x6765;&#x8BF4;&#xFF0C;policy &#x662F; Agent &#x7684;&#x51B3;&#x7B56;&#x529F;&#x80FD;&#xFF0C;&#x89C4;&#x5B9A;&#x4E86;&#x5728; Agent &#x53EF;&#x80FD;&#x9047;&#x5230;&#x7684;&#x4EFB;&#x4F55;&#x60C5;&#x51B5;&#x4E0B;&#x5E94;&#x91C7;&#x53D6;&#x7684;&#x884C;&#x52A8;&#x3002;&#x8FD9;&#x662F; Agent &#x7684;&#x6838;&#x5FC3;&#x3002;<br>&#x7B56;&#x7565;&#x6709;&#x4E24;&#x79CD;&#x8868;&#x793A;&#x65B9;&#x6CD5;&#xFF1A;&#x4E00;&#x79CD;&#x662F;&#x5C06;&#x7B56;&#x7565;&#x8868;&#x793A;&#x4E3A;&#x51FD;&#x6570; <script type="math/tex; ">\pi: X \to A</script>&#xFF0C;&#x786E;&#x5B9A;&#x6027;&#x7B56;&#x7565;&#x5E38;&#x7528;&#x8FD9;&#x79CD;&#x8868;&#x793A;&#xFF1B;&#x53E6;&#x4E00;&#x79CD;&#x662F;&#x6982;&#x7387;&#x8868;&#x793A; <script type="math/tex; ">\pi: X \times A \to \mathbb{R}</script>&#xFF0C;&#x968F;&#x673A;&#x6027;&#x7B56;&#x7565;&#x5E38;&#x7528;&#x8FD9;&#x79CD;&#x8868;&#x793A;&#xFF0C;<script type="math/tex; ">\pi(x,a)</script> &#x4E3A;&#x72B6;&#x6001; <script type="math/tex; ">x</script> &#x4E0B;&#x9009;&#x62E9;&#x52A8;&#x4F5C; <script type="math/tex; ">a</script> &#x7684;&#x6982;&#x7387;&#xFF0C;&#x8FD9;&#x91CC;&#x5FC5;&#x987B;&#x6709; <script type="math/tex; ">\sum_a \pi(x,a) = 1</script>&#x3002;<br>&#x5728;&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x4EFB;&#x52A1;&#x4E2D;&#xFF0C;&#x5B66;&#x4E60;&#x7684;&#x76EE;&#x7684;&#x5C31;&#x662F;&#x8981;&#x627E;&#x5230;&#x80FD;&#x4F7F;&#x957F;&#x671F;&#x7D2F;&#x79EF;&#x5956;&#x8D4F;&#x6700;&#x5927;&#x5316;&#x7684;&#x7B56;&#x7565;&#x3002;</p>
</li>
<li><p>Page373: K-&#x6447;&#x81C2;&#x8D4C;&#x535A;&#x673A;(K-armed bandit)</p>
<p>&#x5355;&#x6B65;&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x5BF9;&#x5E94;&#x7684;&#x7406;&#x8BBA;&#x6A21;&#x578B;&#xFF0C;K-&#x6447;&#x81C2;&#x8D4C;&#x535A;&#x673A;&#xFF08;K-armed bandit&#xFF09;&#x6709; K &#x4E2A;&#x6447;&#x81C2;&#xFF0C;&#x8D4C;&#x5F92;&#x5728;&#x6295;&#x5165;&#x4E00;&#x4E2A;&#x786C;&#x5E01;&#x540E;&#x53EF;&#x9009;&#x62E9;&#x6309;&#x4E0B;&#x5176;&#x4E2D;&#x4E00;&#x4E2A;&#x6447;&#x81C2;&#xFF0C;&#x6BCF;&#x4E2A;&#x6447;&#x81C2;&#x4EE5;&#x4E00;&#x5B9A;&#x7684;&#x6982;&#x7387;&#x5410;&#x51FA;&#x786C;&#x5E01;&#xFF0C;&#x4F46;&#x8FD9;&#x4E2A;&#x6982;&#x7387;&#x8D4C;&#x5F92;&#x5E76;&#x4E0D;&#x77E5;&#x9053;&#x3002;&#x8D4C;&#x5F92;&#x7684;&#x76EE;&#x6807;&#x662F;&#x901A;&#x8FC7;&#x4E00;&#x5B9A;&#x7684;&#x7B56;&#x7565;&#x6700;&#x5927;&#x5316;&#x81EA;&#x5DF1;&#x7684;&#x5956;&#x8D4F;&#xFF0C;&#x5373;&#x83B7;&#x5F97;&#x6700;&#x591A;&#x7684;&#x786C;&#x5E01;&#x3002;</p>
</li>
<li><p>Page374: &#x3F5;-&#x8D2A;&#x5FC3;</p>
<p>&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x9762;&#x4E34;&#x300C;&#x63A2;&#x7D22;-&#x5229;&#x7528;&#x7A98;&#x5883;&#x300D;&#xFF0C;<script type="math/tex; ">\epsilon</script>-&#x8D2A;&#x5FC3;&#x6CD5;&#x57FA;&#x4E8E;&#x4E00;&#x4E2A;&#x6982;&#x7387;&#x6765;&#x5BF9;&#x63A2;&#x7D22;&#x548C;&#x5229;&#x7528;&#x8FDB;&#x884C;&#x6298;&#x4E2D;&#xFF1A;&#x6BCF;&#x6B21;&#x5C1D;&#x8BD5;&#x65F6;&#xFF0C;&#x4EE5; <script type="math/tex; ">\epsilon</script> &#x7684;&#x6982;&#x7387;&#x8FDB;&#x884C;&#x63A2;&#x7D22;&#xFF0C;&#x5373;&#x4EE5;&#x5747;&#x5300;&#x6982;&#x7387;&#x968F;&#x673A;&#x9009;&#x53D6;&#x4E00;&#x4E2A;&#x6447;&#x81C2;&#xFF1B;&#x4EE5; <script type="math/tex; ">1 - \epsilon</script> &#x7684;&#x6982;&#x7387;&#x8FDB;&#x884C;&#x5229;&#x7528;&#xFF0C;&#x5373;&#x9009;&#x62E9;&#x5F53;&#x524D;&#x5E73;&#x5747;&#x5956;&#x8D4F;&#x6700;&#x9AD8;&#x7684;&#x6447;&#x81C2;&#xFF08;&#x82E5;&#x6709;&#x591A;&#x4E2A;&#xFF0C;&#x5219;&#x6700;&#x968F;&#x673A;&#x9009;&#x62E9;&#x4E00;&#x4E2A;&#xFF09;&#x3002;</p>
</li>
<li><p>Page374: &#x63A2;&#x7D22;-&#x5229;&#x7528;&#x7A98;&#x5883;(Exploration-Exploitation dilemma)</p>
<p>&#x82E5;&#x83B7;&#x77E5;&#x6BCF;&#x4E2A;&#x6447;&#x81C2;&#x7684;&#x671F;&#x671B;&#x5956;&#x8D4F;&#xFF0C;&#x53EF;&#x91C7;&#x7528;&#x300C;&#x4EC5;&#x63A2;&#x7D22;&#x300D;&#x6CD5;&#xFF1A;&#x5C06;&#x6240;&#x6709;&#x7684;&#x5C1D;&#x8BD5;&#x673A;&#x4F1A;&#x5E73;&#x5747;&#x5206;&#x914D;&#x7ED9;&#x6BCF;&#x4E2A;&#x6447;&#x81C2;&#xFF08;&#x5373;&#x8F6E;&#x6D41;&#x6309;&#x4E0B;&#x6BCF;&#x4E2A;&#x6447;&#x81C2;&#xFF09;&#xFF0C;&#x6700;&#x540E;&#x4EE5;&#x6BCF;&#x4E2A;&#x6447;&#x81C2;&#x5404;&#x81EA;&#x7684;&#x5E73;&#x5747;&#x5410;&#x5E01;&#x6982;&#x7387;&#x4F5C;&#x4E3A;&#x5176;&#x5956;&#x8D4F;&#x671F;&#x671B;&#x7684;&#x8FD1;&#x4F3C;&#x4F30;&#x8BA1;&#x3002;&#x82E5;&#x6267;&#x884C;&#x5956;&#x8D4F;&#x6700;&#x5927;&#x7684;&#x52A8;&#x4F5C;&#xFF0C;&#x5219;&#x53EF;&#x91C7;&#x7528;&#x300C;&#x4EC5;&#x5229;&#x7528;&#x300D;&#x6CD5;&#xFF1A;&#x6309;&#x4E0B;&#x76EE;&#x524D;&#x6700;&#x4F18;&#x7684;&#xFF08;&#x5373;&#x5230;&#x76EE;&#x524D;&#x4E3A;&#x6B62;&#x5E73;&#x5747;&#x5956;&#x8D4F;&#x6700;&#x5927;&#x7684;&#xFF09;&#x6447;&#x81C2;&#xFF0C;&#x82E5;&#x6709;&#x591A;&#x4E2A;&#x6447;&#x81C2;&#x540C;&#x4E3A;&#x6700;&#x4F18;&#xFF0C;&#x5219;&#x4ECE;&#x4E2D;&#x968F;&#x673A;&#x9009;&#x53D6;&#x4E00;&#x4E2A;&#x3002;<br>&#x300C;&#x63A2;&#x7D22;&#x300D;&#xFF08;&#x5373;&#x4F30;&#x8BA1;&#x6447;&#x81C2;&#x7684;&#x4F18;&#x52A3;&#xFF09;&#x548C;&#x300C;&#x5229;&#x7528;&#x300D;&#xFF08;&#x5373;&#x9009;&#x62E9;&#x5F53;&#x524D;&#x6700;&#x4F18;&#x6447;&#x81C2;&#xFF09;&#x8FD9;&#x4E24;&#x8005;&#x662F;&#x77DB;&#x76FE;&#x7684;&#xFF0C;&#x56E0;&#x4E3A;&#x5C1D;&#x8BD5;&#x6B21;&#x6570;&#xFF08;&#x5373;&#x603B;&#x6295;&#x5E01;&#x6570;&#xFF09;&#x6709;&#x9650;&#xFF0C;&#x52A0;&#x5F3A;&#x4E86;&#x4E00;&#x65B9;&#x5219;&#x4F1A;&#x81EA;&#x7136;&#x524A;&#x5F31;&#x53E6;&#x4E00;&#x65B9;&#xFF0C;&#x8FD9;&#x5C31;&#x662F;&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x6240;&#x9762;&#x4E34;&#x7684;&#x300C;&#x63A2;&#x7D22;-&#x5229;&#x7528;&#x7A98;&#x5883;&#x300D;&#xFF08;Exploration-Exploitation dilemma&#xFF09;&#x3002;</p>
</li>
<li><p>Page375: Softmax</p>
<p>Softmax &#x7B97;&#x6CD5;&#x57FA;&#x4E8E;&#x5F53;&#x524D;&#x5DF2;&#x77E5;&#x7684;&#x6447;&#x81C2;&#x5E73;&#x5747;&#x5956;&#x8D4F;&#x6765;&#x5BF9;&#x63A2;&#x7D22;&#x548C;&#x5229;&#x7528;&#x8FDB;&#x884C;&#x6298;&#x4E2D;&#x3002;&#x82E5;&#x4E2A;&#x6447;&#x81C2;&#x7684;&#x5E73;&#x5747;&#x5956;&#x8D4F;&#x60F3;&#x5F53;&#xFF0C;&#x5219;&#x9009;&#x53D6;&#x4E2A;&#x6447;&#x81C2;&#x7684;&#x6982;&#x7387;&#x4E5F;&#x76F8;&#x5F53;&#xFF1B;&#x82E5;&#x67D0;&#x4E9B;&#x6447;&#x81C2;&#x7684;&#x5E73;&#x5747;&#x5956;&#x8D4F;&#x9AD8;&#x4E8E;&#x5176;&#x4ED6;&#x6447;&#x81C2;&#xFF0C;&#x5219;&#x5B83;&#x4EEC;&#x88AB;&#x9009;&#x53D6;&#x7684;&#x6982;&#x7387;&#x4E5F;&#x660E;&#x663E;&#x66F4;&#x9AD8;&#x3002;<br>Softmax &#x7B97;&#x6CD5;&#x4E2D;&#x6447;&#x81C2;&#x6982;&#x7387;&#x7684;&#x5206;&#x914D;&#x662F;&#x57FA;&#x4E8E; Boltzmann &#x5206;&#x5E03;&#xFF1A;<br><script type="math/tex; ">P(k) = \frac {e^{\frac {Q(k)}{\tau}}}{\sum_{i=1}^K e^{\frac {Q(i)}{\tau}}}</script>&#xFF0C;<br>&#x5176;&#x4E2D;&#xFF0C;<script type="math/tex; ">Q(i)</script> &#x8BB0;&#x5F55;&#x5F53;&#x524D;&#x6447;&#x81C2;&#x7684;&#x5E73;&#x5747;&#x5956;&#x8D4F;&#xFF1B;<script type="math/tex; ">\tau > 0</script> &#x79F0;&#x4E3A;&#x300C;&#x6E29;&#x5EA6;&#x300D;&#xFF0C;<script type="math/tex; ">\tau</script> &#x8D8A;&#x5C0F;&#x5219;&#x5E73;&#x5747;&#x5956;&#x8D4F;&#x9AD8;&#x7684;&#x6447;&#x81C2;&#x88AB;&#x9009;&#x53D6;&#x7684;&#x6982;&#x7387;&#x8D8A;&#x9AD8;&#x3002;<script type="math/tex; ">\tau</script> &#x8D8B;&#x4E8E; 0 &#x65F6; Softmax &#x5C06;&#x8D8B;&#x4E8E;&#x300C;&#x4EC5;&#x5229;&#x7528;&#x300D;&#xFF0C;<script type="math/tex; ">\tau</script> &#x8D8B;&#x4E8E;&#x65E0;&#x7A77;&#x5927;&#x65F6; Softmax &#x5219;&#x5C06;&#x8D8B;&#x4E8E;&#x300C;&#x4EC5;&#x63A2;&#x7D22;&#x300D;&#x3002;</p>
</li>
<li><p>Page377: &#x6709;&#x6A21;&#x578B;&#x5B66;&#x4E60;(model-based learning)</p>
<p>&#x5728;&#x5DF2;&#x77E5;&#x6A21;&#x578B;&#x7684;&#x73AF;&#x5883;&#x4E2D;&#x5B66;&#x4E60;&#x79F0;&#x4E3A;&#x300C;&#x6709;&#x6A21;&#x578B;&#x5B66;&#x4E60;&#x300D;&#xFF0C;&#x5373;&#x673A;&#x5668;&#x5DF2;&#x5BF9;&#x73AF;&#x5883;&#x8FDB;&#x884C;&#x4E86;&#x5EFA;&#x6A21;&#xFF0C;&#x80FD;&#x5728;&#x673A;&#x5668;&#x5185;&#x90E8;&#x6A21;&#x62DF;&#x51FA;&#x4E0E;&#x73AF;&#x5883;&#x76F8;&#x540C;&#x6216;&#x8FD1;&#x4F3C;&#x7684;&#x60C5;&#x51B5;&#x3002;</p>
</li>
<li><p>Page377: &#x72B6;&#x6001;-&#x52A8;&#x4F5C;&#x503C;&#x51FD;&#x6570;(state-action value function)</p>
<p>&#x5728;&#x6A21;&#x578B;&#x5DF2;&#x77E5;&#x65F6;&#xFF0C;&#x5BF9;&#x4EFB;&#x610F;&#x7B56;&#x7565; <script type="math/tex; ">\pi</script> &#x80FD;&#x4F30;&#x8BA1;&#x51FA;&#x8BE5;&#x7B56;&#x7565;&#x5E26;&#x6765;&#x7684;&#x671F;&#x671B;&#x7D2F;&#x79EF;&#x5956;&#x8D4F;&#x3002;&#x4EE4;&#x51FD;&#x6570; <script type="math/tex; ">V^{\pi}(x)</script> &#x8868;&#x793A;&#x4ECE;&#x72B6;&#x6001; <script type="math/tex; ">x</script> &#x51FA;&#x53D1;&#xFF0C;&#x4F7F;&#x7528;&#x7B56;&#x7565; <script type="math/tex; ">\pi</script> &#x6240;&#x5E26;&#x6765;&#x7684;&#x7D2F;&#x79EF;&#x5956;&#x8D4F;&#xFF1B;&#x51FD;&#x6570; <script type="math/tex; ">Q^{\pi}(x,a)</script> &#x8868;&#x793A;&#x4ECE;&#x72B6;&#x6001; <script type="math/tex; ">x</script> &#x51FA;&#x53D1;&#xFF0C;&#x6267;&#x884C;&#x52A8;&#x4F5C; <script type="math/tex; ">a</script> &#x540E;&#x518D;&#x4F7F;&#x7528;&#x7B56;&#x7565; <script type="math/tex; ">\pi</script> &#x5E26;&#x6765;&#x7684;&#x7D2F;&#x79EF;&#x5956;&#x8D4F;&#x3002;&#x8FD9;&#x91CC;&#x7684; <script type="math/tex; ">V(\cdot)</script> &#x79F0;&#x4E3A;&#x300C;&#x72B6;&#x6001;&#x503C;&#x51FD;&#x6570;&#x300D;&#xFF08;state value function&#xFF09;&#xFF0C;<script type="math/tex; ">Q(\cdot)</script> &#x79F0;&#x4E3A;&#x300C;&#x72B6;&#x6001;-&#x52A8;&#x4F5C;&#x503C;&#x51FD;&#x6570;&#x300D;&#xFF08;state-action value function&#xFF09;&#xFF0C;&#x5206;&#x522B;&#x8868;&#x793A;&#x6307;&#x5B9A;&#x300C;&#x72B6;&#x6001;&#x300D;&#x4E0A;&#x4EE5;&#x53CA;&#x6307;&#x5B9A;&#x300C;&#x72B6;&#x6001;-&#x52A8;&#x4F5C;&#x300D;&#x4E0A;&#x7684;&#x7D2F;&#x79EF;&#x5956;&#x8D4F;&#x3002;</p>
</li>
<li><p>Page377: &#x72B6;&#x6001;&#x503C;&#x51FD;&#x6570;(state value function)</p>
<p>&#x89C1;&#x300C;&#x72B6;&#x6001;-&#x52A8;&#x4F5C;&#x503C;&#x51FD;&#x6570;&#x300D;&#x3002;</p>
</li>
<li><p>Page380: Bellman &#x7B49;&#x5F0F;</p>
<p>&#x5BF9;&#x4E8E;&#x72B6;&#x6001;&#x503C;&#x51FD;&#x6570;&#xFF0C;&#x7531;&#x4E8E; MDP &#x5177;&#x6709;&#x9A6C;&#x5C14;&#x79D1;&#x592B;&#x6027;&#x8D28;&#xFF0C;&#x5373;&#x7CFB;&#x7EDF;&#x4E0B;&#x4E00;&#x65F6;&#x523B;&#x7684;&#x72B6;&#x6001;&#x4EC5;&#x7531;&#x5F53;&#x524D;&#x65F6;&#x523B;&#x7684;&#x72B6;&#x6001;&#x51B3;&#x5B9A;&#xFF0C;&#x4E0D;&#x4F9D;&#x8D56;&#x4E8E;&#x4EE5;&#x5F80;&#x4EFB;&#x4F55;&#x72B6;&#x6001;&#xFF0C;&#x4E8E;&#x662F;&#x503C;&#x51FD;&#x6570;&#x6709;&#x5F88;&#x7B80;&#x5355;&#x7684;&#x9012;&#x5F52;&#x5F62;&#x5F0F;&#x3002;&#x5BF9;&#x4E8E; <script type="math/tex; ">T</script> &#x6B65;&#x7D2F;&#x79EF;&#x5956;&#x8D4F;&#x6709;&#xFF1A;<br><script type="math/tex; ">V_T^{\pi}(x) = \sum_{a \in A} \pi (x, a) \sum_{x' \in X} P_{x \to x'}^a \lgroup \frac {1}{T} R_{x \to x'}^a + \frac {T-1}{T} V_{T-1}^{\pi} (x') \rgroup</script>&#xFF0C;<br>&#x8FD9;&#x6837;&#x7684;&#x9012;&#x5F52;&#x7B49;&#x5F0F;&#x79F0;&#x4E3A; Bellman &#x7B49;&#x5F0F;&#x3002;</p>
</li>
<li><p>Page381: &#x7B56;&#x7565;&#x8FED;&#x4EE3;(policy iteration)</p>
<p>&#x4E00;&#x79CD;&#x6C42;&#x89E3;&#x6700;&#x4F18;&#x89E3;&#x7684;&#x65B9;&#x6CD5;&#x3002;&#x4ECE;&#x4E00;&#x4E2A;&#x521D;&#x59CB;&#x7B56;&#x7565;&#xFF08;&#x901A;&#x5E38;&#x662F;&#x968F;&#x673A;&#x7B56;&#x7565;&#xFF09;&#x51FA;&#x53D1;&#xFF0C;&#x5148;&#x8FDB;&#x6027;&#x7B56;&#x7565;&#x8BC4;&#x4F30;&#xFF0C;&#x7136;&#x540E;&#x6539;&#x8FDB;&#x7B56;&#x7565;&#xFF0C;&#x8BC4;&#x4F30;&#x6539;&#x8FDB;&#x7684;&#x7B56;&#x7565;&#xFF0C;&#x518D;&#x8FDB;&#x4E00;&#x6B65;&#x6539;&#x8FDB;&#x7B56;&#x7565;&#xFF0C;&#x2026;&#x2026;&#x4E0D;&#x65AD;&#x8FED;&#x4EE3;&#x8FDB;&#x884C;&#x7B56;&#x7565;&#x8BC4;&#x4F30;&#x548C;&#x6539;&#x8FDB;&#xFF0C;&#x76F4;&#x5230;&#x7B56;&#x7565;&#x6536;&#x655B;&#x3001;&#x4E0D;&#x518D;&#x6539;&#x8FDB;&#x4E3A;&#x6B62;&#x3002;&#x8FD9;&#x6837;&#x7684;&#x505A;&#x6CD5;&#x79F0;&#x4E3A;&#x300C;&#x7B56;&#x7565;&#x8FED;&#x4EE3;&#x300D;&#xFF08;policy iteration&#xFF09;&#x3002;</p>
</li>
<li><p>Page382: &#x503C;&#x8FED;&#x4EE3;(value iteration)</p>
<p>&#x7B56;&#x7565;&#x8FED;&#x4EE3;&#x7B97;&#x6CD5;&#x5728;&#x6BCF;&#x6B21;&#x6539;&#x8FDB;&#x7B56;&#x7565;&#x540E;&#x90FD;&#x9700;&#x91CD;&#x65B0;&#x8FDB;&#x884C;&#x7B56;&#x7565;&#x8BC4;&#x4F30;&#xFF0C;&#x8FD9;&#x901A;&#x5E38;&#x6BD4;&#x8F83;&#x8017;&#x65F6;&#x3002;&#x7531;&#x4E8E;&#x7B56;&#x7565;&#x6539;&#x8FDB;&#x548C;&#x503C;&#x51FD;&#x6570;&#x7684;&#x6539;&#x8FDB;&#x662F;&#x4E00;&#x81F4;&#x7684;&#xFF0C;&#x56E0;&#x6B64;&#x53EF;&#x5C06;&#x7B56;&#x7565;&#x6539;&#x8FDB;&#x89C6;&#x4E3A;&#x503C;&#x51FD;&#x6570;&#x7684;&#x6539;&#x5584;&#x3002;&#x8FD9;&#x79CD;&#x6539;&#x5584;&#x503C;&#x51FD;&#x6570;&#x7684;&#x7B97;&#x6CD5;&#x5C31;&#x79F0;&#x4E3A;&#x503C;&#x8FED;&#x4EE3;&#xFF08;value iteration&#xFF09;&#x7B97;&#x6CD5;&#x3002;</p>
</li>
<li><p>Page382: &#x514D;&#x6A21;&#x578B;&#x5B66;&#x4E60;(model-free learning)</p>
<p>&#x5728;&#x73B0;&#x5B9E;&#x7684;&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x4EFB;&#x52A1;&#x4E2D;&#xFF0C;&#x73AF;&#x5883;&#x7684;&#x8F6C;&#x79FB;&#x6982;&#x7387;&#x3001;&#x5956;&#x8D4F;&#x51FD;&#x6570;&#x5F80;&#x5F80;&#x5F88;&#x96BE;&#x5F97;&#x77E5;&#xFF0C;&#x751A;&#x81F3;&#x5F88;&#x96BE;&#x77E5;&#x9053;&#x73AF;&#x5883;&#x4E2D;&#x4E00;&#x5171;&#x6709;&#x591A;&#x5C11;&#x72B6;&#x6001;&#x3002;&#x82E5;&#x5B66;&#x4E60;&#x7B97;&#x6CD5;&#x4E0D;&#x4F9D;&#x8D56;&#x4E8E;&#x73AF;&#x5883;&#x5EFA;&#x6A21;&#xFF0C;&#x5219;&#x79F0;&#x4E3A;&#x300C;&#x514D;&#x6A21;&#x578B;&#x5B66;&#x4E60;&#x300D;&#xFF08;model-free learning&#xFF09;&#x3002;  </p>
</li>
<li><p>Page386: TD(Temporal Difference) &#x5B66;&#x4E60;(393)</p>
<p>&#x7531;&#x4E8E;&#x8499;&#x7279;&#x5361;&#x6D1B;&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x7B97;&#x6CD5;&#x6CA1;&#x6709;&#x5145;&#x5206;&#x5229;&#x7528;&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x4EFB;&#x52A1;&#x7684; MDP &#x7ED3;&#x6784;&#xFF0C;&#x56E0;&#x6B64;&#x6548;&#x7387;&#x8981;&#x4F4E;&#x5F88;&#x591A;&#x3002;&#x65F6;&#x5E8F;&#x5DEE;&#x5206;&#xFF08;Temporal Difference&#xFF0C;&#x7B80;&#x79F0; TD&#xFF09;&#x5B66;&#x4E60;&#x5219;&#x7ED3;&#x5408;&#x4E86;&#x52A8;&#x6001;&#x89C4;&#x5212;&#x4E0E;&#x8499;&#x7279;&#x5361;&#x6D1B;&#x65B9;&#x6CD5;&#x7684;&#x601D;&#x60F3;&#xFF0C;&#x80FD;&#x505A;&#x5230;&#x66F4;&#x9AD8;&#x6548;&#x7684;&#x514D;&#x6A21;&#x578B;&#x5B66;&#x4E60;&#x3002;</p>
</li>
<li><p>Page386: &#x65F6;&#x5E8F;&#x5DEE;&#x5206;&#x5B66;&#x4E60;(393)</p>
<p>&#x540C; TD &#x5B66;&#x4E60;&#x3002;</p>
</li>
<li><p>Page387: Sarsa &#x7B97;&#x6CD5;(390)</p>
<p>&#x8BE5;&#x7B97;&#x6CD5;&#x6BCF;&#x6B21;&#x66F4;&#x65B0;&#x503C;&#x51FD;&#x6570;&#x9700;&#x524D;&#x4E00;&#x6B65;&#x7684;&#x72B6;&#x6001;&#xFF08;state&#xFF09;&#x3001;&#x524D;&#x4E00;&#x6B65;&#x7684;&#x52A8;&#x4F5C;&#xFF08;action&#xFF09;&#x3001;&#x5956;&#x8D4F;&#x503C;&#xFF08;reward&#xFF09;&#x3001;&#x5F53;&#x524D;&#x72B6;&#x6001;&#xFF08;state&#xFF09;&#x3001;&#x5C06;&#x8981;&#x6267;&#x884C;&#x7684;&#x52A8;&#x4F5C;&#xFF08;action&#xFF09;&#xFF0C;&#x56E0;&#x6B64;&#x5F97;&#x540D; Sarsa &#x7B97;&#x6CD5;&#x3002;Sarsa &#x8BA9;&#x7CFB;&#x7EDF;&#x6309;&#x7167;&#x7B56;&#x7565;&#x6307;&#x5F15;&#x8FDB;&#x884C;&#x63A2;&#x7D22;&#xFF0C;&#x5728;&#x63A2;&#x7D22;&#x6BCF;&#x4E00;&#x6B65;&#x90FD;&#x8FDB;&#x884C;&#x72B6;&#x6001;&#x4EF7;&#x503C;&#x7684;&#x66F4;&#x65B0;&#xFF0C;&#x66F4;&#x65B0;&#x516C;&#x5F0F;&#x5982;&#x4E0B;&#xFF1A;<br><script type="math/tex; ">Q^\pi_{t+1} (x,a) = Q^\pi_t (x,a) + \alpha \lgroup R^\alpha_{x \to x'} + \gamma Q^\pi_t(x',a') - Q^\pi_t(x,a) \rgroup</script>&#xFF0C;<br>&#x5176;&#x4E2D;&#xFF0C;<script type="math/tex; ">x'</script> &#x662F;&#x524D;&#x4E00;&#x6B21;&#x5728;&#x72B6;&#x6001; <script type="math/tex; ">x</script> &#x6267;&#x884C;&#x52A8;&#x4F5C; <script type="math/tex; ">a</script> &#x540E;&#x8F6C;&#x79FB;&#x5230;&#x7684;&#x72B6;&#x6001;&#xFF0C;<script type="math/tex; ">a'</script> &#x662F;&#x7B56;&#x7565; <script type="math/tex; ">\pi</script> &#x5728; <script type="math/tex; ">x'</script> &#x4E0A;&#x9009;&#x62E9;&#x7684;&#x52A8;&#x4F5C;&#x3002;<br>Sarsa &#x662F;&#x4E00;&#x4E2A;&#x540C;&#x7B56;&#x7565;&#xFF08;on-policy&#xFF09;&#x7B97;&#x6CD5;&#xFF0C;&#x7B97;&#x6CD5;&#x4E2D;&#x7684;&#x8BC4;&#x4F30;&#xFF08;&#x4E0A;&#x5F0F;&#xFF09;&#x548C;&#x6267;&#x884C;&#xFF08;<script type="math/tex; ">a' = \pi^\epsilon(x')</script>&#xFF09;&#x7684;&#x5747;&#x4E3A; <script type="math/tex; ">\epsilon</script>-&#x8D2A;&#x5FC3;&#x7B56;&#x7565;&#x3002;</p>
</li>
<li><p>Page387: Q-&#x5B66;&#x4E60;(393)(Q-learning)</p>
<p>&#x5C06; Sarsa &#x4FEE;&#x6539;&#x4E3A;&#x5F02;&#x7B56;&#x7565;&#xFF08;off-policy&#xFF09;&#x7B97;&#x6CD5;&#xFF0C;&#x5373;&#x52A8;&#x4F5C;&#x503C;&#x51FD;&#x6570;&#x66F4;&#x65B0;&#xFF08;&#x8BC4;&#x4F30;&#xFF09;&#x4E0D;&#x540C;&#x4E8E;&#x9009;&#x53D6;&#x52A8;&#x4F5C;&#xFF08;&#x6267;&#x884C;&#xFF09;&#x65F6;&#x9075;&#x5FAA;&#x7684;&#x7B56;&#x7565;&#xFF0C;&#x5C31;&#x5F97;&#x5230; Q-&#x5B66;&#x4E60;&#x7B97;&#x6CD5;&#xFF0C;Q-&#x5B66;&#x4E60;&#x7684;&#x52A8;&#x4F5C;&#x503C;&#x51FD;&#x6570;&#x66F4;&#x65B0;&#x516C;&#x5F0F;&#x5982;&#x4E0B;&#xFF1A;<br><script type="math/tex; ">Q^\pi_{t+1} (x,a) = Q^\pi_t (x,a) + \alpha \lgroup R^\alpha_{x \to x'} + \gamma max_{a} Q^\pi_t(x',a) - Q^\pi_t(x,a) \rgroup</script></p>
</li>
<li><p>Page388: &#x8868;&#x683C;&#x503C;&#x51FD;&#x6570;(tabular value function)</p>
<p>&#x5982;&#x679C;&#x6211;&#x4EEC;&#x5047;&#x5B9A;&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x4EFB;&#x52A1;&#x662F;&#x5728;&#x6709;&#x9650;&#x72B6;&#x6001;&#x7A7A;&#x95F4;&#x4E0A;&#x8FDB;&#x884C;&#xFF0C;&#x6BCF;&#x4E2A;&#x72B6;&#x6001;&#x53EF;&#x4EE5;&#x7528;&#x4E00;&#x4E2A;&#x7F16;&#x53F7;&#x6765;&#x6307;&#x4EE3;&#xFF1B;&#x503C;&#x51FD;&#x6570;&#x5C31;&#x662F;&#x5173;&#x4E8E;&#x6709;&#x9650;&#x72B6;&#x6001;&#x7684;&#x300C;&#x8868;&#x683C;&#x503C;&#x51FD;&#x6570;&#x300D;&#xFF08;tabular value&#xFF09;&#xFF0C;&#x4E5F;&#x5C31;&#x662F;&#x8BF4;&#x503C;&#x51FD;&#x6570;&#x80FD;&#x8868;&#x793A;&#x4E3A;&#x4E00;&#x4E2A;&#x6570;&#x7EC4;&#xFF0C;&#x8F93;&#x5165; <script type="math/tex; ">i</script> &#x5BF9;&#x5E94;&#x7684;&#x51FD;&#x6570;&#x503C;&#x5C31;&#x662F;&#x6570;&#x7EC4;&#x5143;&#x7D20; <script type="math/tex; ">i</script> &#x7684;&#x503C;&#xFF0C;&#x4E14;&#x66F4;&#x6539;&#x4E00;&#x4E2A;&#x72B6;&#x6001;&#x4E0A;&#x7684;&#x503C;&#x4E0D;&#x5F71;&#x54CD;&#x5176;&#x4ED6;&#x72B6;&#x6001;&#x4E0A;&#x7684;&#x503C;&#x3002;</p>
</li>
<li><p>Page388: &#x503C;&#x51FD;&#x6570;&#x8FD1;&#x4F3C;(value function approximation)</p>
<p>&#x5B9E;&#x9645;&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x4EFB;&#x52A1;&#x6240;&#x9762;&#x4E34;&#x7684;&#x72B6;&#x6001;&#x7A7A;&#x95F4;&#x5F80;&#x5F80;&#x662F;&#x8FDE;&#x7EED;&#x7684;&#xFF0C;&#x6709;&#x65E0;&#x7A77;&#x591A;&#x4E2A;&#x72B6;&#x6001;&#x3002;&#x6211;&#x4EEC;&#x5047;&#x5B9A;&#x72B6;&#x6001;&#x7A7A;&#x95F4;&#x4E3A; <script type="math/tex; ">n</script> &#x7EF4;&#x5B9E;&#x6570;&#x7A7A;&#x95F4; <script type="math/tex; ">X = \mathbb{R}^n</script>&#xFF0C;&#x6B64;&#x65F6;&#x663E;&#x7136;&#x65E0;&#x6CD5;&#x7528;&#x8868;&#x683C;&#x503C;&#x51FD;&#x6570;&#x6765;&#x8BB0;&#x5F55;&#x72B6;&#x6001;&#x503C;&#x3002;&#x4F46;&#x8003;&#x8651;&#x7B80;&#x5355;&#x60C5;&#x5F62;&#xFF0C;&#x5373;&#x503C;&#x51FD;&#x6570;&#x80FD;&#x8868;&#x8FBE;&#x4E3A;&#x72B6;&#x6001;&#x7684;&#x7EBF;&#x6027;&#x51FD;&#x6570;&#xFF1A;<br><script type="math/tex; ">V_\theta(x) = \theta^Tx</script>&#xFF0C;<br>&#x5176;&#x4E2D; <script type="math/tex; ">x</script> &#x4E3A;&#x72B6;&#x6001;&#x5411;&#x91CF;&#xFF0C;<script type="math/tex; ">\theta</script> &#x4E3A;&#x53C2;&#x6570;&#x5411;&#x91CF;&#x3002;&#x7531;&#x4E8E;&#x6B64;&#x65F6;&#x7684;&#x503C;&#x51FD;&#x6570;&#x96BE;&#x4EE5;&#x50CF;&#x6709;&#x9650;&#x72B6;&#x6001;&#x90A3;&#x6837;&#x7CBE;&#x786E;&#x8BB0;&#x5F55;&#x6BCF;&#x4E2A;&#x72B6;&#x6001;&#x7684;&#x503C;&#xFF0C;&#x56E0;&#x6B64;&#x8FD9;&#x6837;&#x7684;&#x503C;&#x51FD;&#x6570;&#x6C42;&#x89E3;&#x88AB;&#x79F0;&#x4E3A;&#x503C;&#x51FD;&#x6570;&#x8FD1;&#x4F3C;&#xFF08;value function approximation&#xFF09;&#x3002;</p>
</li>
<li><p>Page390: &#x6A21;&#x4EFF;&#x5B66;&#x4E60;(imitation learning)</p>
<p>&#x5728;&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x7684;&#x7ECF;&#x5178;&#x4EFB;&#x52A1;&#x8BBE;&#x7F6E;&#x4E2D;&#xFF0C;&#x673A;&#x5668;&#x6240;&#x80FD;&#x83B7;&#x5F97;&#x7684;&#x53CD;&#x9988;&#x4FE1;&#x606F;&#x4EC5;&#x6709;&#x591A;&#x6B65;&#x51B3;&#x7B56;&#x540E;&#x7684;&#x7D2F;&#x8BA1;&#x5956;&#x8D4F;&#xFF0C;&#x4F46;&#x5728;&#x73B0;&#x5B9E;&#x4EFB;&#x52A1;&#x4E2D;&#xFF0C;&#x5F80;&#x5F80;&#x80FD;&#x5F97;&#x5230;&#x4EBA;&#x7C7B;&#x4E13;&#x5BB6;&#x7684;&#x51B3;&#x7B56;&#x8FC7;&#x7A0B;&#x8303;&#x4F8B;&#x3002;&#x4ECE;&#x8FD9;&#x6837;&#x7684;&#x8303;&#x4F8B;&#x4E2D;&#x5B66;&#x4E60;&#xFF0C;&#x79F0;&#x4E3A;&#x300C;&#x6A21;&#x4EFF;&#x5B66;&#x4E60;&#x300D;&#xFF08;imitation learning&#xFF09;&#x3002;</p>
</li>
<li><p>Page391: &#x9006;&#x5F3A;&#x5316;&#x5B66;&#x4E60;(inverse reinforcement learning)</p>
<p>&#x5728;&#x5F88;&#x591A;&#x4EFB;&#x52A1;&#x4E2D;&#xFF0C;&#x8BBE;&#x8BA1;&#x5956;&#x8D4F;&#x51FD;&#x6570;&#x5F80;&#x5F80;&#x76F8;&#x5F53;&#x56F0;&#x96BE;&#xFF0C;&#x4ECE;&#x4EBA;&#x7C7B;&#x4E13;&#x5BB6;&#x63D0;&#x4F9B;&#x7684;&#x8303;&#x4F8B;&#x6570;&#x636E;&#x4E2D;&#x53CD;&#x63A8;&#x51FA;&#x5956;&#x8D4F;&#x51FD;&#x6570;&#x6709;&#x52A9;&#x4E8E;&#x89E3;&#x51B3;&#x8BE5;&#x95EE;&#x9898;&#xFF0C;&#x8FD9;&#x5C31;&#x662F;&#x300C;&#x9006;&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x300D;&#xFF08;inverse reinforcement learning&#xFF09;&#x3002;<br>&#x9006;&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x7684;&#x57FA;&#x672C;&#x601D;&#x60F3;&#x662F;&#xFF1A;&#x6B32;&#x4F7F;&#x673A;&#x5668;&#x505A;&#x51FA;&#x4E0E;&#x8303;&#x4F8B;&#x4E00;&#x81F4;&#x7684;&#x884C;&#x4E3A;&#xFF0C;&#x7B49;&#x4EF7;&#x4E8E;&#x5728;&#x67D0;&#x4E2A;&#x5956;&#x8D4F;&#x51FD;&#x6570;&#x7684;&#x73AF;&#x5883;&#x4E2D;&#x6C42;&#x89E3;&#x6700;&#x4F18;&#x7B56;&#x7565;&#xFF0C;&#x8BE5;&#x6700;&#x4F18;&#x7B56;&#x7565;&#x6240;&#x4EA7;&#x751F;&#x7684;&#x8F68;&#x8FF9;&#x4E0E;&#x8303;&#x4F8B;&#x6570;&#x636E;&#x4E00;&#x81F4;&#x3002;&#x6362;&#x8A00;&#x4E4B;&#xFF0C;&#x6211;&#x4EEC;&#x8981;&#x5BFB;&#x627E;&#x67D0;&#x79CD;&#x5956;&#x8D4F;&#x51FD;&#x6570;&#x4F7F;&#x5F97;&#x8303;&#x4F8B;&#x6570;&#x636E;&#x662F;&#x6700;&#x4F18;&#x7684;&#xFF0C;&#x7136;&#x540E;&#x5373;&#x53EF;&#x4F7F;&#x7528;&#x8FD9;&#x4E2A;&#x5956;&#x8D4F;&#x51FD;&#x6570;&#x6765;&#x8BAD;&#x7EC3;&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x7B56;&#x7565;&#x3002;</p>
</li>
<li><p>Page393: &#x8FD1;&#x4F3C;&#x52A8;&#x6001;&#x89C4;&#x5212;(approximate dynamic programming)</p>
<p>&#x5F3A;&#x5316;&#x5B66;&#x4E60;&#x5728;&#x8FD0;&#x7B79;&#x5B66;&#x4E0E;&#x63A7;&#x5236;&#x8BBA;&#x9886;&#x57DF;&#x7684;&#x7814;&#x7A76;&#x88AB;&#x79F0;&#x4E3A;&#x300C;&#x8FD1;&#x4F3C;&#x52A8;&#x6001;&#x89C4;&#x5212;&#x300D;&#xFF08;approximate dynamic programming&#xFF09;&#x3002;</p>
</li>
</ul>

                                
                                </section>
                            
    </div>
    <div class="search-results">
        <div class="has-results">
            
            <h1 class="search-results-title"><span class='search-results-count'></span> results matching "<span class='search-query'></span>"</h1>
            <ul class="search-results-list"></ul>
            
        </div>
        <div class="no-results">
            
            <h1 class="search-results-title">No results matching "<span class='search-query'></span>"</h1>
            
        </div>
    </div>
</div>

                        </div>
                    </div>
                
            </div>

            
                
                <a href="ch15.html" class="navigation navigation-prev " aria-label="Previous page: 规则学习">
                    <i class="fa fa-angle-left"></i>
                </a>
                
                
                <a href="ch17.html" class="navigation navigation-next " aria-label="Next page: 附录">
                    <i class="fa fa-angle-right"></i>
                </a>
                
            
        
    </div>

    <script>
        var gitbook = gitbook || [];
        gitbook.push(function() {
            gitbook.page.hasChanged({"page":{"title":"强化学习","level":"1.3.5.1.16","depth":4,"next":{"title":"附录","level":"1.3.5.1.17","depth":4,"path":"ml/melon/ch17.md","ref":"ml/melon/ch17.md","articles":[]},"previous":{"title":"规则学习","level":"1.3.5.1.15","depth":4,"path":"ml/melon/ch15.md","ref":"ml/melon/ch15.md","articles":[]},"dir":"ltr"},"config":{"plugins":["disqus","github","toggle-chapters","mathjax","mermaid-gb3"],"styles":{"website":"styles/website.css","pdf":"styles/pdf.css","epub":"styles/epub.css","mobi":"styles/mobi.css","ebook":"styles/ebook.css","print":"styles/print.css"},"pluginsConfig":{"disqus":{"useIdentifier":false,"shortName":"ahangchen-blog"},"github":{"url":"https://github.com/ahangchen/windy-afternoon"},"search":{},"lunr":{"maxIndexSize":1000000,"ignoreSpecialCharacters":false},"fontsettings":{"theme":"white","family":"sans","size":2},"highlight":{},"mermaid-gb3":{},"mathjax":{"forceSVG":false,"version":"2.6-latest"},"sharing":{"facebook":true,"twitter":true,"google":false,"weibo":false,"instapaper":false,"vk":false,"all":["facebook","google","twitter","weibo","instapaper"]},"theme-default":{"styles":{"website":"styles/website.css","pdf":"styles/pdf.css","epub":"styles/epub.css","mobi":"styles/mobi.css","ebook":"styles/ebook.css","print":"styles/print.css"},"showLevel":false},"toggle-chapters":{}},"theme":"default","author":"陈伟航","pdf":{"pageNumbers":true,"fontSize":12,"fontFamily":"Arial","paperSize":"a4","chapterMark":"pagebreak","pageBreaksBefore":"/","margin":{"right":62,"left":62,"top":56,"bottom":56}},"structure":{"langs":"LANGS.md","readme":"README.md","glossary":"GLOSSARY.md","summary":"SUMMARY.md"},"variables":{},"title":"梦里茶","gitbook":"*"},"file":{"path":"ml/melon/ch16.md","mtime":"2017-12-05T14:29:01.079Z","type":"markdown"},"gitbook":{"version":"3.2.2","time":"2018-05-19T05:00:41.899Z"},"basePath":"../..","book":{"language":""}});
        });
    </script>
</div>

        
    
    <script src="../../gitbook/gitbook.js"></script>
    <script src="../../gitbook/theme.js"></script>
    
        
        <script src="https://cdnjs.cloudflare.com/ajax/libs/URI.js/1.16.1/URI.min.js"></script>
        
    
        
        <script src="../../gitbook/gitbook-plugin-disqus/plugin.js"></script>
        
    
        
        <script src="../../gitbook/gitbook-plugin-github/plugin.js"></script>
        
    
        
        <script src="../../gitbook/gitbook-plugin-toggle-chapters/toggle.js"></script>
        
    
        
        <script src="https://cdn.staticfile.org/mathjax/2.6.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
        
    
        
        <script src="../../gitbook/gitbook-plugin-mathjax/plugin.js"></script>
        
    
        
        <script src="../../gitbook/gitbook-plugin-mermaid-gb3/book/plugin.js"></script>
        
    
        
        <script src="../../gitbook/gitbook-plugin-search/search-engine.js"></script>
        
    
        
        <script src="../../gitbook/gitbook-plugin-search/search.js"></script>
        
    
        
        <script src="../../gitbook/gitbook-plugin-lunr/lunr.min.js"></script>
        
    
        
        <script src="../../gitbook/gitbook-plugin-lunr/search-lunr.js"></script>
        
    
        
        <script src="../../gitbook/gitbook-plugin-sharing/buttons.js"></script>
        
    
        
        <script src="../../gitbook/gitbook-plugin-fontsettings/fontsettings.js"></script>
        
    

    <script src="../../gitbook/gitbook-plugin-mermaid-gb3/mermaid/mermaid.min.js"></script>

    </body>
</html>

